Tika CLI দিয়ে ফাইলের ধরন, টেক্সট, এবং মেটাডাটা নির্ধারণ করা

Tika CLI (Command Line Interface) - অ্যাপাচি টিকা (Apache Tika) - Java Technologies

278

অ্যাপাচি টিকা (Apache Tika)-এর Command Line Interface (CLI) একটি সহজ পদ্ধতি যা ব্যবহার করে ফাইল থেকে টেক্সট এবং মেটাডাটা এক্সট্রাক্ট করা যায়। CLI ব্যবহার করলে প্রোগ্রামিং ভাষার প্রয়োজন হয় না, এটি দ্রুত এবং সরাসরি কমান্ড লাইন থেকে কাজ করতে পারে।


Tika CLI সেটআপ

Tika CLI চালানোর জন্য প্রথমে tika-app JAR ফাইল ডাউনলোড করতে হবে। এটি Apache Tika Official Website থেকে পাওয়া যায়।

Tika CLI চালু করার কমান্ড:

java -jar tika-app-x.x.jar

এখানে x.x হল Tika-এর ভার্সন নাম্বার।


১. ফাইলের ধরন (File Type) নির্ধারণ

Tika CLI দিয়ে সহজে একটি ফাইলের ধরন (MIME Type) নির্ধারণ করা যায়।

Command:

java -jar tika-app-x.x.jar -d example.pdf

Output:

application/pdf

এখানে -d ফ্ল্যাগ ফাইলের MIME Type সনাক্ত করার জন্য ব্যবহৃত হয়।


২. ফাইল থেকে টেক্সট এক্সট্রাকশন

ফাইল থেকে কাঁচা টেক্সট এক্সট্রাক্ট করতে Tika CLI ব্যবহার করা যায়।

Command:

java -jar tika-app-x.x.jar -t example.pdf

Output:

This is a sample PDF document.
It contains text data for testing purposes.

Explanation:

  • -t ফ্ল্যাগ Text Extraction নির্দেশ করে।
  • Tika ফাইলের ভিতরের টেক্সট কন্টেন্ট প্রসেস করে সরাসরি কমান্ড লাইনে আউটপুট দেয়।

৩. ফাইলের মেটাডাটা (Metadata) নির্ধারণ

ফাইল থেকে মেটাডাটা (Metadata) নির্ধারণ করার জন্য -m ফ্ল্যাগ ব্যবহার করা হয়।

Command:

java -jar tika-app-x.x.jar -m example.pdf

Output:

Content-Type: application/pdf
Last-Modified: 2024-06-01T10:45:00Z
X-Parsed-By: org.apache.tika.parser.pdf.PDFParser
Author: John Doe
Title: Sample Document
Creation-Date: 2024-06-01T10:00:00Z

Explanation:

  • -m ফ্ল্যাগ মেটাডাটা প্রসেস করে দেখায়।
  • এখানে Author, Title, Creation-Date এর মতো তথ্য নির্ধারণ করা হয়েছে।

৪. টেক্সট এবং মেটাডাটা একসাথে প্রসেস করা

যদি একই সাথে ফাইলের টেক্সট এবং মেটাডাটা দেখতে চান, তাহলে নিচের কমান্ড ব্যবহার করুন।

Command:

java -jar tika-app-x.x.jar -J example.pdf

Output:

Content-Type: application/pdf
Author: John Doe
Title: Sample Document
Creation-Date: 2024-06-01T10:00:00Z

Extracted Text:
This is a sample PDF document.
It contains text data for testing purposes.

Explanation:

  • -J ফ্ল্যাগটি টেক্সট এবং মেটাডাটা একসাথে আউটপুট দেয়।

৫. ব্যাচ প্রসেসিং (Multiple Files)

একসাথে একাধিক ফাইল প্রসেস করতে Tika CLI ব্যবহার করা যায়।

Command:

java -jar tika-app-x.x.jar -t *.pdf > output.txt

Explanation:

  • *.pdf নির্দেশ করে সব .pdf ফাইল প্রসেস করা হবে।
  • আউটপুট output.txt ফাইলে সংরক্ষণ করা হবে।

৬. HTML বা Structured Output

ফাইলের টেক্সট বা মেটাডাটা HTML বা অন্য ফরম্যাটে দেখতে চাইলে নিচের কমান্ড ব্যবহার করুন।

Command:

java -jar tika-app-x.x.jar -h example.docx

Output:

<html>
<head><title>Sample Document</title></head>
<body>
<p>This is a sample Word document.</p>
</body>
</html>

Explanation:

  • -h ফ্ল্যাগ HTML ফরম্যাটে আউটপুট প্রদান করে।

CLI কমান্ড সংক্ষেপ

ফ্ল্যাগব্যাখ্যা
-dফাইলের ধরন (MIME Type) নির্ধারণ
-tটেক্সট এক্সট্রাকশন
-mমেটাডাটা নির্ধারণ
-Jটেক্সট এবং মেটাডাটা একসাথে দেখানো
-hHTML আউটপুট

সারাংশ

Apache Tika CLI একটি সহজ এবং কার্যকর টুল যা ব্যবহার করে দ্রুত ফাইলের ধরন, টেক্সট কন্টেন্ট, এবং মেটাডাটা নির্ধারণ করা যায়। এটি কমান্ড লাইন থেকে সহজেই প্রসেসিং এবং অটোমেশন কাজে ব্যবহার করা যায়। বড় আকারের ডেটা প্রসেস করার জন্য Tika CLI একটি শক্তিশালী এবং ব্যবহার উপযোগী সমাধান।

Content added By
Promotion

Are you sure to start over?

Loading...